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Интерполяция пространственных данных 
методом двумерного проецирования 
нечетких кластеров 


В статье рассматриваются информационные возможности нового метода интерполяции пространственных 
данных, заданных на неравномерной сетке. Суть метода заключается в использовании нечеткой 
кластеризации, рассмотрении проекции функций принадлежности на координатную плоскость, вычи- 
слении степени принадлежности имеющихся данных и использовании их для получения прогнозных 
значений в дополнительных точках. Представлены результаты моделирования и реальной проверки 
работоспособности метода. 


Введение 


Существует множество задач, решение которых связано с обработкой неравно- 
мерно распределенных данных. В особенности это касается больших систем (геология, 
экология, горнодобывающая промышленность, экономика), для которых во многих 
случаях возможно измерение лишь в некоторых рабочих точках. Среди прочих 
следует выделить задачи обработки пространственных данных, при работе с которыми 
принципиальным вопросом является учет системы координат. Например, модели- 
рование рельефа и изолиний земной поверхности, оценка границ возможных зон 
подтопления и загрязнения, оценка рудного тела, вычисление объемов под объектами 
на поверхности (при выемке угля и последующей закладке для предотвращения 
оседания земной поверхности) и т.д. Учитывая их практическую значимость, решению 
данной проблемы уделяется большое внимание. 


Постановка задачи 


Часто реальные экспериментальные данные, используемые для моделирования, 
являются неполными и/или неравномерно распределенными в пространстве, что 
сказывается на качестве результата. Различные алгоритмы интерполяции обеспечивают 
получение прогнозных значений в дополнительных точках на основе использования 
имеющихся данных [1]. При анализе пространственных данных следует учитывать 
их особенности, прежде всего свойства пространственной корреляции и топологии. 

Условно можно выделить три основные группы методов интерполяции простран- 
ственных данных: метод обратных взвешенных расстояний (ОВР), метод поверхности 
тренда и кригинг. Именно они реализованы в большинстве современных геоинформа- 
ционных (ГИС) и САПР системах, таких, как АгсО1$ 9.0, Со|4еп Зой\уаге ЗитЁег 8, 
Марш РгоЕе51опа|. 

В основе ОВР лежит понятие «окрестности» точки, влияющей на вклад рассчи- 
тываемых данных при определении интерполируемого значения. Вариации расчета 
расстояний между точками и способ их учета определяют различные модификации 
этого подхода. 
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Метод поверхности тренда направлен на выявление общих тенденций поверх- 
ности, а не точного моделирования мелких неровностей. Как и в предыдущем методе, 
используется начальный набор данных в пределах заданной окрестности, которая 
строится на основе любого метода со взвешиванием и определяется поверхность наи- 
лучшего приближения на основе математических уравнений, таких, как полиномы и 
сплайны. 

В основе кригинга лежит учет статистических свойств поверхности и утверждение, 
что поверхность не может моделироваться только одним математическим уравнением. 
Рассматриваются три независимые величины: дрейф — представляет поверхность как 
общий тренд в определенном направлении, отклонения от общей тенденции — описывает 
случайные, но пространственно коррелированные незначительные поверхностные струк- 
туры, и случайный шум, который не имеет пространственной корреляции, каждая из 
которых обрабатывается отдельно. 

При работе этих алгоритмов необходимо учитывать следующие факторы: 

— область, в пределах которой производится интерполяция, должна быть окружена 
точками с известными значениями со всех сторон для возможности расширения 
окрестности по всем направлениям, иначе возникает вероятность появления ошибки 
вдоль границы; 

— количество точек существенно влияет на точность модели, особенно при работе 
со сложными формами рельефа, но существует предел, при котором увеличение их 
приводит не только к значительному увеличению времени вычисления, но и к 
непредвиденным результатам; 

— используемый метод расчета центра тяжести данных по полигону приводит в 
некоторых случаях к необходимости ручной корректировки хода вычислений. 

Все описанные методы используют как базовое понятие «ближайшей» окрестности 
точки, которое по своей природе является неточным и может быть описано с 
использованием нечеткой логики. 

Несмотря на то, что исследования в области решения задач с использованием 
нечеткого подхода ведутся достаточно широко практически во всех областях, при- 
кладные результаты в области моделирования пространственной информации факти- 
чески отсутствуют. 


Цель работы 


В данной работе демонстрируется возможность использования нового подхода 
интерполяции пространственных данных, заданных на неравномерной сетке, методом 
двумерного проецирования нечетких кластеров, который в рамках рассматриваемой 
задачи позволяет частично устранить отмеченные недостатки традиционных методов. 


Решение задачи 


Возможность использования нечеткой логики для решения задач интерполяции 
была отмечена в [2]. Основное преимущество нечетких моделей, по сравнению с 
традиционными математическими моделями, связано с возможностью использования 
для их разработки значительно меньших объемов информации о системе, причем она 
может носить приближенный характер. 

Нечеткая модель задает интерполяционную поверхность между точками про- 
странства входов Хи выходов 7, задаваемыми с помощью логических правил, исполь- 
зующих функцию принадлежности. Функция принадлежности ставит в соответствие 
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каждому значению х заданной переменной некоторое число из интервала 0, 1: 
И) х — [0, 1 УхеХ , характеризующее степень принадлежности элемента х к 
нечеткому множеству А. Каждое правило определяет важную типовую особенность 
поведения системы, геометрически соответствующую «существенной» точке прост- 
ранства Х Х У, которая не всегда располагается непосредственно на характеристике 
реальной системы. Существуют различные походы определения «существенных» 
точек. В предлагаемом методе их месторасположение вычислялось с использова- 
нием метода нечеткой кластеризации (ЕСМ). 

В результате работы алгоритма ЕСМ каждой точке входных данных ставится в 
соответствие вектор из функций принадлежности к каждому классу, на основе которого 
можно делать выводы о природе данного объекта. Задача нечеткой кластеризации 
формулируется следующим образом: на основе исходных данных ДО определить 
такое нечеткое разбиение (А) = {А, [А < А} или нечеткое покрытие 5(4)= (4, | А, < А} 


множества А на заданное число с нечетких кластеров А, (ке {2....,с}), которое до- 


ставляет экстремум некоторой целевой функции Г (9(4)) среди всех нечетких раз- 
биений или экстремум целевой функции / (3(4)) среди всех нечетких покрытий. 
Основная идея метода двумерного проецирования нечетких кластеров заключается 
в предположении о том, что если образец принадлежит кластеру рассматриваемого 
класса в и-мерном пространстве, то его проекции также принадлежат проекциям 
этого кластера на любое из двумерных пространств Х‚,хХ,, а функцию принад- 


лежности заданного класса и(х,х,,...х,) можно определить через функции принад- 


лежности его проекций на отдельные подпространства д(х.,х, ),..м(хьх,),.и(х,ьх,). 


п-12 и 
Алгоритм метода включает последовательность следующих действий. 
1. Определение центров кластеров с применением метода ЕСМ. На основе 
неравномерных экспериментальных измерений в пространстве признаков Х’,Х.,...,Х,,У 


(У целевой, интерполяция которого производится) осуществляется нечеткая класте- 
ризация исходных данных. 


Результатом являются значения центров кластеров т,т,,....т,, вычисляемые 
итеративно по формуле 
№ 
Ум" (@-х 
т (+= (1) 


М й 
Уи () 
у 


где (9: Е ре с- количество классов; №М- число объектов кластеризации, [ — 
количество информативных признаков, причем х,/ =у; 4 - параметр фаззификации, 
определяющий нечеткость кластера. 

2. Определение функций принадлежности кластеров. Определение кластеров 
на шаге 1 осуществляется на всем пространстве Хх7У, а в практических задачах 


обычно требуется определить некоторое значение у при заданном значении входного 
вектора х. Поэтому функции принадлежности следует формировать раздельно для 


> Хх, 
входных и выходного параметров. Данная цель достигается построением проекции т, ' 
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центров кластеров на координатное пространство, где /=1,..п, 1=1....с, которые и 
рассматриваются в качестве «существенных» точек, являющихся центрами функций 
принадлежности й. каждого из классов: 


му =— = й (х,), (2) 


где расстояние между вектором х; и центром кластера т” определяется только во 
входном пространстве по формуле: 


= (те А, тк), (3) 


и) = к-т; 


размерность положительно определенной симметричной матрицы А равна пхи. 

3. Вычисление выхода нечеткой модели. Выходное значение у определяется на 
основе вычисленных функций принадлежности к заданным кластерам каждой точки 
полного координатного пространства интерполируемой поверхности и вычисляется 
по формуле: 


=. (4) 
Хи) 


4. Итеративное уточнение модели. Полученная модель представляет собой 
обобщенное представление моделируемой поверхности, поскольку получаемое ре- 
шение обычно соответствует локальному, а не глобальному максимуму. В методе 
двумерного проецирования нечетких кластеров повышение точности модели осущест- 
влялось путем формирования дополнительных «существенных» точек на основе 
анализа ошибки интерполяции в точках координатного пространства из исходного 
набора данных. В точках пространства, для которых ошибка имела максимальное 
значение, формировались собственные функции принадлежности на основе выра- 
жения (2) и уточнение модели по формуле (4). 

Существует множество факторов, влияющих на точность получаемого результата, 
одним из которых является значение параметра фаззификации. На сегодня не сущест- 
вует теоретически обоснованного правила выбора значения этого параметра. 

Значение 4 влияет на матрицу степеней принадлежности. Чем 4 больше, тем 


конечная матрица с-разбиения становится более «размытой». Значение 4 =1 соответ- 
ствует «четкой» кластеризации, а при 4 —*< центры кластеров приближаются к 


точке, соответствующей центру масс всех элементов (все объекты принадлежат ко 
всем кластерам с одной и той же степенью). При больших значениях 4 (9>1) 


усиливается степень нечеткости кластера, т.е. увеличиваются расстояния между 
ветвями функции принадлежности. Большие значения параметра фаззификации усили- 
вают влияние удаленных элементов, меньшие значения — близких, что особенно 
важно для кластеризации пространственных данных и позволяет ввести и управлять 
понятием «ближайшая» окрестность точки. 
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Экспериментальные результаты 


Проверка метода была проведена на модели, в качестве которой рассматривалось 
геофизическое поле Й=Х (х, У), трехмерное изображение которого приведено на 


рис. 1 а), где (х, У) — координаты поверхности Земли, 2 — его нормированное значе- 


ние, которое может быть интерпретировано как высота поверхности. Формирование 
исходных пространственных данных, расположенных на неравномерной сетке, которые 
представлены на рис. 1 6), осуществлялось случайным образом. Количество исходных 
точек в ходе эксперимента варьировалось в пределах 1 — 5% от общего количества 
пикселей результирующего изображения поверхности, значение которого определяет- 
ся шагом дискретизации реальных исходных данных и диапазоном их изменения. 
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Рисунок 1 — Модельные данные: а) — изображение геофизического поля; 
6) — расположение точек, используемых при интерполяции 


На рис. 2 а) представлен результат интерполяции с использованием широко 
применяемого метода на основе триангуляции Делоне, со сглаживанием участков 
поверхности кубическими сплайнами, который реализован во многих системах и может 
быть отнесен к трендовым методам, а на рис. 2 6) - новым методом двумерного 
проецирования нечетких кластеров. 


а) 6) 
Рисунок 2 — Интерполяция модельного поля: а) — методом на основе триангуляции 
Делоне; 6) — методом двумерного проецирования нечетких кластеров 


Оценивая полученные результаты, кроме лучшего качественного соответствия 
модели, следует отметить хороший результат экстраполяции — расширение поверх- 
ности на внешние области, для которых отсутствуют результаты измерений (для 
метода на основе триангуляции Делоне эта область вообще не определена). 
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На рис. 3 а) — 6) представлен результат моделирования участка земной поверх- 
ности шахтного поля шахты «Павлоградская» по сведениям из 108 разведочных сква- 
жин. Количество исходных данных составляет менее процента от общего количества 
данных, полученных в результате интерполяции методами: а) — основанным на триан- 
гуляции Делоне и 6) — новым, двумерного проецирования нечетких кластеров. 


а) 
Рисунок 3 — Интерполяция реальных данных различными методами: 
а) — на основе триангуляции Делоне; 
6) — двумерного проецирования нечетких кластеров 


Выводы 


В результате визуального анализа полученных результатов и при сравнении с 
картографическими источниками было выявлено следующее. 

1. Интерполяция неравномерных пространственных данных методом двумер- 
ного проецирования нечетких кластеров обеспечивает большее соответствие модели 
реальной поверхности. 

2. Метод обеспечивает лучшее согласование поверхности интерполяции с мо- 
дельными данными во внешних областях (области экстраполяции). 

3. Новый метод имеет значительный потенциал для дальнейшего развития. 
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